11. 实现
实现:动作值的估值
在下个部分,你将编写一个算法,该算法会接受状态值函数 v_\pi 的估值 V,以及 MDP p(s',r|s,a) 的一步动态特性并返回动作值函数 q_\pi 的估值 Q。
为此,你需要使用在上一部分讨论的方程,该方程使用马尔可夫决策流程 (MDP) 的一步动态特性 p(s',r|s,a) 获得来自 v_\pi 的 q_\pi,即
q_\pi(s,a) = \sum_{s'\in\mathcal{S}^+, r\in\mathcal{R}}p(s',r|s,a)(r+\gamma v_\pi(s'))
针对所有 s\in\mathcal{S} 和 a\in\mathcal{A}(s)。
你可以在下方找到相关的伪代码。

请在下个部分完成 Dynamic_Programming.ipynb
中的第 2 部分:从 v_\pi 获得 q_\pi。请记得保存内容!
你可以查看 Dynamic_Programming_Solution.ipynb
的相应部分,检查你的答案是否正确。